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摘 要 : 提出 一 种 基于 机 器 学 的 食 双 星光 变 曲线 自动 分 类 算法 。 算 法 首先 对 数据 进行 预 
外 里 ， 将 食 双 星光 变 曲 线 数据 归 一 化 ， 并 通过 滤波 / 插 0 降 低 噪声 ; 随后 使 用 快速 侍 里 叶 变 换 
提取 频率 信号 作为 特征 向 量 ; 利用 特征 向 量 训 练 支持 向 量 机 获得 自动 分 类 模型 。 使 用 Python 实 
现 算法 并 抓 取 CALEB 和 GCVS 数 据 验证 ， 分 析 特 征 向 量 、 支 持 向 量 机 核 落 数 与 惩罚 系数 对 分 类 
正确 率 的 影响 ， 禽 tb 后 所 得 分 类 摸 型 正确 率 达 到 92.8% (VILA) 和 89.0% (测试 集 ) ， 最 后 
使 用 所 得 分 类 模型 对 第 3 方 数 据 泛 了 分 类 正确 率 郑 8.8%， 结 果 证 明 提出 的 分 类 算法 有 效 性 。 
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在 信息 与 计算 技术 等 新 兴 科技 的 驱动 下 ， 天 文 研究 领域 已 从 传统 的 单 目 标 观测 和 手工 
处 理 数据 转向 多 目标 观测 和 自动 数据 处 理 趾 ， 大 量 巡 天 项 目 开 展 为 天 文学 研究 提供 了 海量 
数据 ， 如 ROTSE，ASAS，SuperWASP，MACHO，OGLE，SDSS，LAMOST 和 Kepler 等 ， 
由 计算 机 自动 完成 目标 交叉 证 认 四 、 观 测 、 实 时 数据 处 理 和 分 析 包 等 ， 获 得 光谱 、 测 光 、 周 期 
以 及 类 型 等 数据 。 随 着 数据 量 的 进一步 增 大 ， 单 服务 器 已 难以 实时 完成 数据 处 理 ， 分 布 式 计 
算 被 应 用 到 数据 处 理 中 提高 处 理 效率 四 。 面 对 获得 的 海量 天 文 数据 ， 必 须 借助 支持 向 量 机 、 
神经 网 络 、 遗 传 算法 等 人 工 智能 算法 对 数据 进行 分 析 和 处 理 ， 挖 气 有 用 的 信息 站， 如 基于 随 
机 森林 方法 对 SDSS 和 XMM 数 据 的 天 体 进行 分 类 向 ;基于 机 器 学 习 方 法 寻找 射电 脉冲 信和 号 
中 1， 基于 密 近 双星 的 Roche 势 对 双星 进行 分 类 等 四， 所 有 这 些 标志 着 天 文学 研究 已 到 入 了 
大 数据 时 代 。 

通过 观测 获得 的 食 双 星光 变 曲线 ， 可 以 快速 确定 其 类 型 ， 搜 寻 出 具有 特殊 演化 意义 的 
双星 系统 ， 为 研究 一 些 特殊 天 体 和 现象 提供 了 重要 的 研究 窗口 。 这 对 丰富 和 发 展 双星 的 研究 
内 容 ， 通 过 食 双 星 认识 星团 和 星系 的 形成 和 演化 具有 重要 的 意义 。 文 [9] 使 用 多 项 式 拟 合 光 
变 曲 线 ， 根 据 拟 合 后 的 曲线 的 主 极 小 和 次 极 小 的 宽度 和 深度 给 出 光 变 曲线 类 型 ， 文 [10-11] 
使 用 侍 里 叶 变 换 提 取 光 变 曲 线 数据 的 频率 特征 ， 根 据 所 得 频率 特征 进行 分 类 ， 但 在 算法 实 
现 上 使 用 了 软件 计算 的 完美 光 变 曲线 数据 进行 参数 设置 ， 使 用 特征 量 较 少 ， 未 考虑 仪器 测 
试 误 差 、 天 和 气 原因 等 引起 的 数据 波动 影响 ， 因 此 仅 能 完成 对 光 变 曲线 进行 初步 分 类 ， 不 能 识 
别 载 有 特殊 天 文 现象 的 光 变 曲线 。 

本 文 提出 了 一 种 基于 支持 向 量 机 的 食 双 星光 变 曲线 自动 分 类 算法 ， 以 快速 傅 里 叶 变 换 
所 得 的 频率 信号 为 特征 量 ， 对 支持 向 量 机 模型 进行 训练 获得 能 自动 分 类 的 模型 。 


1. 自动 分 类 算法 
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图 1 光 变 曲线 分 类 方法 


Fig.1 Automatic classification algorithm scheme for light curve 

食 双星 光 变 曲线 可 分 为 BA，EB 和 EW 三 种 ， 针 对 分 类 需求 提出 分 类 方法 如 图 1, 58 

1 步 对 原始 数据 进行 预 处 理 ， 归 一 化 原始 数据 并 减 小 其 中 噪声 ， 第 2 步 通 过 快速 依 里 叶 变 

换 提 取 频 率 信号 作为 特征 数据 ， 第 3 步 使 用 基于 支持 向 量 机 算法 训练 分 类 模型 并 测试 ， 最 
后 对 流程 优化 ， 获 得 最 优 的 分 类 模型 。 

1.1 数据 预 处 理 

ASAS 用 理论 光 变 曲线 进行 分 析 ， 无 噪声 影响 中， 而 本 文 使 用 CALEB'(Catalog and 

AtLas of Eclipsing Binaries) 实 测 数据 (包括 相位 和 较 差 星 等 ) 。 由 于 天 气 因素 以 及 仪器 误差 

等 影响 ， 实 测 数 据 不 可 避免 地 带 有 噪声 影响 。 为 了 降低 噪声 的 影响 ， 首 先进 行 预 处 理 


o 


C1) 归 一 化 ， 相 位 数值 在 [0,1] 之 间 ， 不 需要 处 理 , 较 差 星 等 可 通过 式 归 一 化 到 [0,1] 之 间 。 


m'= mM — Main 
m —m 


max min 


BHA, m 为 归 一 化 后 的 较 差 星 等 ，m 为 原始 较 差 星 等 ，mwma 和 mw 分 别 为 较 差 星 等 最 大 值 
和 最 小 值 。 
(2) 使 用 均值 滤波 /线性 插值 算法 减少 噪声 。 设 mii 为 预 处 理 后 的 较 差 星 等 最 终 值 ,将 相位 均 


匀 分 为 n 段 ， 若 第 段 相位 天 汪 范围 内 较 差 星 等 的 数量 p=1， 则 采用 该 数据 值 作为 mi; 


车 5b>>1， 则 采用 均值 滤波 算法 获得 新 的 mil， 如 式 ， 车 b=0， 则 采用 线性 插值 获得 新 的 mi， 
如 式 。 最 终 获 得 间隔 相等 的 归 一 化 数据 {7 碟 节 .…,m 认 。 


mii = mil, + mji, 
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1.2 光 变 曲线 特征 提取 
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可 用 快速 离散 传 里 叶 变换 将 相位 / 较 差 星 等 变 为 频 域 
组 成 特征 数据 集 oo fi Sao T), FUB FARA E, 
1.3 文 持 向 量 机 分 类 算法 

支持 向 量 机 是 建立 在 统计 学 习 理论 的 VC 维 
监督 的 机 器 学 习 算 法 ， 基 本 思想 是 将 特 和 
割 的 超 平面 ， 该 算法 常 作 为 自动 分 类 
训练 集 和 测试 集 。 使 用 j 
型 ) ， 使 用 测试 集 验证 所 得 模型 。 


2. 实验 与 结果 分 析 
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的 机 器 学 习 算 法 。 在 实际 使 有 
| 练 集训 练 支 持 向 量 机 模型 ， 获 得 映射 函数 和 分 割 
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LE 论 和 结构 风险 最 小 原理 基础 上 的 一 种 有 
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将 频 域 信号 与 对 应 光 变 | 


| 线 类 型 


常 将 原始 数据 分 为 
F 面 〈 即 分 类 模 


算法 实现 采用 Python 编程 ，Python 是 一 种 面向 对 象 的 解释 型 计算 机 编程 语言 ， 由 于 其 
易 用 性 、 简 洁 和 可 扩展 性 ， 成 为 最 受 欢迎 的 程序 设计 语言 之 一 。Python 拥有 大 量 的 科学 计算 
扩展 库 在 本 文 算法 实现 中 使 用 。 
2.1 分 类 实验 实现 
首先 进行 原始 数据 下 载 和 收集 ， 本 文 使 用 urllib3 和 BeautifulSoup 库 自 动 分 析 CALEB 
网 页 数据 并 存储 网 站 提供 的 300 个 变星 的 坐标 、 星 名 、 类 型 及 747 条 光 变 曲线 ， 但 网 站 未 给 
出 光 变 曲线 类 型 。 随 后 通过 变星 坐标 与 GCVS? (General Catalogue of Variable Stars new 
version) 数据 交叉 对 比 获 得 光 变 曲线 类 型 。 
随后 实现 光 变 曲线 数据 预 处 理 。 这 里 以 BE Vul (EA) , YY Cet (EB) , TW 
Cet (EW) 三 个 变星 的 V 波段 数据 为 例 。 原始 数据 如 图 2(a)。 由 图 可 知 ， 由 于 观测 设备 等 限 
制 ， 观 测 数 据 质量 较 差 。 表现 为 数据 点 个 数 不 一 致 、 浮 动 较 大 、 数据 较 离散 等 ,将 相位 均 分 为 
间隔 0.005 的 新 相位 点 ， 应 用 归 一 化 /均值 滤波 /线性 插值 后 所 得 数据 如 图 2(b)。 由 图 可 知 预 
处 理 保留 了 原始 数据 变化 趋势 ， 相 对 原始 数据 更 加 平滑 。 
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(a) (b) 
图 2 原始 数据 (a) 与 预 处 理 后 数据 (b) 
Fig.2 Original data (a) and pre processed data (b) 
第 三 步 使 用 numpy 和 scipy 库 对 预 处理 后 数据 进行 快 傅 里 时 变换 完成 频 域 变化 。 以 上 文 
所 述 3 颗 星 数据 为 例 ， 所 得 频率 值 如 图 3。 其 中 横 坐标 代表 信号 谐 波 频率 。 


3 http:/www.Sai.msu.Su/gcvs/gcvs/intrhtm 
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图 3 快速 傅 里 叶 变 换 的 结果 
Fig.3 Result of FFT 

第 四 步 进行 支 持 向 量 机 模型 训练 。 使 用 上 述 方法 把 747 条 光 变 曲线 处 理 后 获得 数据 集 
Us fi fe T 。 首 先 测试 频率 分 量 选 择 对 模型 训练 的 影响 。 用 [ji,f] 表 示 从 到 J 的 连续 频 
Aye ea, Hitt St 表示 大 ， 太 独立 的 频率 分 量 集合 。 支 持 向 量 机 模型 选用 线性 核 函 数 ， 
训练 集 为 373 条 数据 ， 测 试 集 为 374 条 数据 ， 惩 罚 因子 设 为 1.0。 其 中 核 函 数 是 将 输入 空间 
映射 到 高 维 空 s 间 的 函数 算法 ,惩罚 因子 是 对 错误 分 类 的 容忍 度 ， 降 低 容忍 度 能 获得 更 好 的 训 
练 结果 ， 但 也 可 能 产生 过 拟 合 。 最终 得 结果 如 图 4。 由 图 4 可知， 选取 侦 次 谐 波 作为 特征 值 
时 分 类 正确 率 较 高 (图 中 数据 a、b Alc) ， 即 使 仅 用 有 也 可 获得 78.6% 的 分 类 正确 率 ( 图 中 
数据 a) 。 选 择 奇 次 谐 波 分 量 作 为 特征 值 ， 正 确 率 最 高 仅 为 57.8% 【图 中 数据 d、e) ， 说 明 
奇 次 谐 波 分 量 不 适用 于 作为 特征 值 。 比较 图 中 结果 f 到 i 正确 率 随 着 选取 的 频率 数量 的 增 
多 而 上 升 ， 说 明 选 择 更 多 频率 分 量 有 助 于 优化 分 类 结 。 训 练 集 和 测试 集 正确 率 相 差 小 于 

2%， 证 明 训 练 结果 有 效 ， 且 未 达到 过 度 训练 。 综 合 以 上 结果 ， 侦 次 谐 波 分 量 适 天 用 于 作为 特 
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图 4 分 类 正确 率 与 特征 值 关系 


Fig.4 Relationship between classification accuracy and characteristic value 


2.2 支持 向 量 机 优化 

接 下 来 优化 支持 向 量 机 参数 设置 以 获得 更 好 结果 ， 支 持 向 量 机 参数 主要 包括 核 函数 选 
择 和 惩罚 因子 设置 。 选择 不 同 核 函数 和 惩罚 因子 ， 使 用 数据 集 { 有 , ,有 ,6, 衣 }) 作 为 特征 值 ， 最 
终 所 得 结果 如 图 5。 由 图 5 可 知 4 种 核 函数 按 优 劣 顺序 依次 为 linear，rbf，sigmoid 和 poly. 
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2.3 实验 结 


Ey 
到 稳定 .惩罚 因子 对 poly 无 影响 ,当选 用 linear 核 函数 ， 惩 罚 因 子 设置 为 2.0 时， 获得 的 最 优 
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分 类 正确 率 分 别 为 89.8%〔 训 练 集 ) 和 84.8% 测试 集 ) ， 


于 其 他 新 的 光 变 曲线 数据 分 类 与 识别 。 
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已 训练 好 的 模型 可 
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图 5 支持 向 量 机 参数 与 分 类 正确 率 关 系 


Fig.5 Relationship between SVM parameters and classification accuracy 


果 分 析 与 数据 修正 


从 结果 上 看 训练 所 得 模型 正确 率 高 ， 能 满足 分 类 需求 。 但 仍 有 分 类 错误 数据 ， 下 面 对 分 
类 错误 的 数据 进行 分 析 ， 找 出 分 类 错误 原因 。 
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图 6 分 类 错误 的 光 变 曲线 


Fig.6 light curve of classification error 


将 分 类 失败 的 数据 进行 整理 和 分 析 ， 结 果 表明 分 类 错误 主要 来 自 以 下 两 方面 。(1) 两 


个 网 站 的 光 变 曲线 和 分 类 信息 不 一 致 ， 如 AU Pup 和 AW 


理 后 数据 妇 
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HE 6(a)， 由 图 可 知 该 光 变 曲线 类 型 应 为 EW 型 ， 


SA EB 型 ， 可 修改 原始 光 变 曲线 类 型 数据 消除 这 种 错误 。 
角 的 区 分 标准 ， 如 图 6(b), GCVS 给 出 XZ Cmi 和 SW Lyn 分 别 为 EB 和 EA 型 ， 但 CALEB 
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该 工作 量 较 大 和 暂 未 进行 。 


Lac 两 个 目标 星 的 原始 数据 与 预 处 


但 GCVS 给 出 的 光 变 曲线 类 型 


1 线 类 型 分 类 缺乏 明 
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HH 线 数据 非常 接近 ， 所 以 必需 明确 分 类 标准 ， 并 对 原始 数据 逐条 进行 手工 分 类 与 
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惩罚 因子 
| 7 SVM 模型 再 次 训练 
修复 原始 数据 分 类 错误 14 个 目标 ， 重 新 进行 支持 向 量 机 模型 训练 和 测试 ， 结 果 如 图 
7。 由 于 在 上 次 的 训练 中 已 知 由 图 可 知 sigmoid 和 poly 效果 较 差 ， 这 次 仅 进行 linear 和 rbf 两 
种 核 函 数 的 测试 ， 由 本 次 测试 结果 可 知 linear 核 函 数 结果 较 好 ， 当 惩罚 因子 设置 为 5.8 时 ， 
能 达到 分 类 正确 率 为 92.8% (训练 集 ) 和 89.0% CURE) 。 而 如 果 使 用 rbf 核 函数 ， 则 惩 
罚 因子 设置 为 5.6 时， 能 达到 分 类 正确 率 为 90.9%〔 训 练 集 ) M 86.4% CMRR) 。 
随后 准备 160 条 光 变 曲线 数据 情 ， 使 用 两 种 核 函 数 训练 好 的 模型 进行 测试 ， 分 类 正确 
率 均 为 88.8%， 检 查 了 错误 类 型 ， 主 要 是 由 于 EA 和 EB 两 种 光 变 曲线 分 类 错误 。 
3. 总结 和 展望 
0 本 文 提 出 一 种 基于 机 器 学 习 的 光 变 曲线 自动 分 类 算法 ， 使 用 快速 傅 里 叶 变 换 提取 目标 
= 数据 的 频率 ， 选 用 偶 次 频率 分 量 作为 光 变 曲线 特征 值 ， 使 用 所 提取 特征 值 训练 支持 向 量 机 


© 模型 获得 分 类 模型 。 随 后 采用 Python 编程 实现 上 述 算法 并 进行 优化 ， 实 验 数据 使 用 CALEB 
lI. 的 实测 光 变 曲线 数据 和 GCVS WRB ARRERA fo f. fo fo 癌 作为 特征 值 时 ， 先 


H linear 核 函 数 ， 惩 罚 因 子 设置 为 2.0 可 获得 最 优 分 类 结果 ， 分 类 正确 率 为 89.8% (训练 
KO 和 84.8% 〔〈 测 试 集 》， 能 基本 满足 分 类 需求 。 

对 分 类 错误 数据 进行 分 析 ， 结 果 表 明 分 类 错误 第 1 个 原因 来 源 于 CALEB 的 光 变 曲线 数 
HA GCVS 分 类 信息 不 一 致 ， 该 类 错误 可 以 通过 修改 分 类 信息 消除 。 第 2 个 原因 来 源 于 光 变 
Oo 曲线 类 型 分 类 缺乏 明确 区 分 标准 ， 某 些 非 常 接近 的 光 变 曲线 数据 被 分 为 不 同类 型 ， 对 最 终 
测试 结果 造成 干扰 ， 需 要 制定 明确 的 分 类 标准 并 对 原始 数据 重新 分 类 才 可 以 避免 该 种 错误 。 
将 第 1 种 错误 全 部 修正 后 ， 正 确 率 提升 到 92.8%〔 训 练 集 ) 和 89.0%〔 测 试 集 ) 。 由 于 还 未 
制定 明确 的 分 类 标准 ， 第 2 种 错误 来 源 还 未 修复 。 

在 天 文 观测 中 自动 化 技术 应 用 越 来 越 广泛 ， 而 获取 的 数据 量 也 越 来 越 多 ， 在 常规 的 观 
测 数据 中 往往 包含 着 我 们 感 兴趣 的 特殊 数据 ， 预 示 着 特殊 的 天 文 现 象 如 双星 合并 等 ， 需 要 
筛选 特殊 数据 ， 然 后 对 该 目标 进行 重点 观测 ， 能 获得 更 有 用 的 数据 结果 。 如 何 从 大 量 数据 中 
快速 第 选 出 特殊 数据 是 一 个 难点 。 在 随后 研究 中 将 特殊 光 变 曲线 数据 整理 为 样本 数据 ， 对 文 
持 向 量 机 算法 进行 训练 ， 使 所 得 模型 能 够 快速 识别 特殊 光 变 曲线 数据 ， 从 而 能 够 快速 响应 。 
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Abstract: This paper proposes an automatic classification algorithm for light curve of eclipsing 
binary stars based on machine learning. At first the algorithm normalizes the light curve and 
performs filtering/interpolatiing to reduce the noise effect in the preprocessing stage, then the 
Fourier coefficients, which are extracted by FFT from the light curve, are used as the feature 
vector to train SVM and a classification model is obtained. We implement this algorithm with 
Python and use the data captured from CALEB/GCVS to validate and discuss the effact of the 
feature vector, the SVM kernel function and the penalty coefficient to the classification accuracy. 
The correct rate of the classification model reaches 92.8% (training set) and 89% (test set). 
Finally, we use the third party data to verify the classification model and get a correct rate of 
88.8%. The results prove the validity of the classification algorithm proposed in this paper. 

Key words: automatic classification of optical curves; SVM; eclipsing binary stars 


